小白学AI系列之0:马蜂窝有几种捅法?
大家好,“小白学AI系列”从今天开始连载啦!这个系列将集思广益,收集AI研发小伙伴在脑子发热时想到的有趣切入点,用说人话的方式,带小白进入AI学习的大门。AI不应该是用来放卫星、骗热钱的玩物,不是一学就令人脱发的枯燥代码,也不是有了自我意识就要毁灭人类的终结者。它没有那么炫酷,本质上是利用数学工具和计算能力对人类智能活动的一种模拟。
手机拿好,眼睛不要离太近,让我们开始吧。
这两天,你的朋友圈可能被这篇文章刷屏了:《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》。乎睿数据发现,马蜂窝引以为核心资产的2100万条“真实点评”,有很多是从同类网站那儿抄袭得来的。我们对事件本身不做评价,毕竟吃瓜群众还没看到故事的全貌,只挑熟悉的技术聊聊:乎睿数据如何判断马蜂窝中存在大量抄袭的信息?有没有更加智能的方式分析更大数量级的用户点评?AI能用于监控用户数据作假吗?
1
批量获取信息:爬虫
爬虫是一种按照特定规则,自动抓取网络信息的程序。假设你想获取豆瓣电影排名前100的动作片简介,你大可以上班时间摸鱼,挨个点开,复制简介,粘贴到记事本。(小心老板,祝您平安。)这样很锻炼耐心和手部肌肉群。或者,你也可以用爬虫来做这件事,基本上大家都选择Python来做,大神早已将大量的规则、操作集成为Python库,比如BeautifulSoup、Scrapy、Selenium等。有的库帮助你伪装为浏览器和鼠标点击行为,而更常见的是识别网页信息对应的标签。让我们打开马蜂窝,搜索杨超越的家乡:江苏大丰,目的地选择大丰麋鹿园。
你眼中的网页长这样:
浏览器眼中的网页是这样:
如果有人要量抓取大丰麋鹿园的评论,就告诉爬虫:标签里class=”rev-txt”的一律拿下。
2
信息处理:图形化展示 + 自然语言处理
乎睿数据在解读马蜂窝点评数据时用到了简单的图形化展示:
由于爬虫获取的数据带有发布时间等信息,通过图形化展示,就能方便地看到大量数据呈现的形态和趋势。大量用户集体发言,集体禁声,发表评论的时间与工作时间高度重合等特征,在图表上一览无余,让数据说话。
此外,乎睿数据团队还发现了点评者时男时女的诡异现象:
阅读理解可以说是很细心了。但是这样找bug虽然其乐无穷,但是费时间啊,如果我想分清一千万人中有多少人雌雄同体,有办法吗?
还真有。自然语言处理(NLP)是AI中的热门方向之一。通过这个技术,我们可以教会程序理解点评中蕴含的信息,并进行更高级的处理。我们可以知道用户最常用的词汇是什么,是满意还是吐槽。目前的NLP已经可以总结段落大意,并判断写作者的感情倾向。这样,程序就能汇总大量用户的态度和感情倾向,用于后续更高级的处理。有兴趣的小白入门也简单,记得上周发布的智子人工智能平台Sophon吗?NLP相关的经典算法拖拽出来就能用了,何等快节奏的AI工程师入门:
3
AI用于反欺诈、智能投资研究的场景
乎睿数据团队质疑的问题可能只是行业生态的冰山一角。如果实锤落地,各家依赖于用户生成内容的网站又该如何监督自身的数据真实性呢?
用户数量巨大的前提下,人工审核信息真伪的效率是远远跟不上需求的。集成了AI的用户画像系统能很好地满足这一需求。还是以马蜂窝为例,通过NLP技术,我们可以知道用户的消费、点评记录,还有他们的各种评价。基于这些信息,用户画像系统可以判别出他们的大致属性:
如果我们像上文一样,要揪出雌雄同体的虚假评论者,就可以在这套画像系统中自定义,精准排雷,即维护了网站声誉,又巩固了投资者的信心。更加棒的是,这一切都可以让一个稍微受点训练的小白在Sophon中完成。
结语
老话说的好:能动手的,尽量别哔哔。如果某个技术令你心动,最好的学习方式并不是啃大部头,试图掌握一切知识之后才动手。不是的。你可以通过搜索引擎获得入门知识,然后在项目中积累,通过失败定位知识盲点,不耻下问,厚着脸皮前进。
小白学AI系列和你一同进步。
点击或回复关键词,查看相关内容
公司
产品
产品 | 星环的划时代版本-Transwarp Data Hub 5.0
认证考试 | 数据中心联盟—星环联合认证体系首次认证考试报名中
技术
白话大数据 | 白话大数据合集
深入机器学习 | 深入机器学习系列合集
案例
银行 | 中国银行:大数据在银行领域的应用与实践
智能金融 | 星环科技发布证券业大数据战略规划纲要(白皮书)
运营商 | 运营商的新方向-运用Hadoop技术将大数据资产变现
视频监控 | Hadoop在实时视频监控的应用场景